# 本文件用于加载10万条数据的JSON文件,以及禁用词文件
# 功能：读取train_expanded.json文件，返回包含所有样本的字典
# 返回内容说明：
#   - 返回格式：字典，键为样本ID（如"NLU00000"），值为包含"text"、"intent"、"slots"的字典
#   - 示例结构：{"NLU00000": {"text": "示例文本", "intent": "意图类型", "slots": { ... }}}

import json

def load_data(file_path='../data/train_expanded_balance_plus.json'):
    """加载JSON数据集，返回包含所有样本的字典"""
    with open(file_path, 'r', encoding='utf-8') as f:
        data = json.load(f)
    return data

def load_stopwords(file_path='../data/stopwords.txt'):
    """加载停用词列表"""
    with open(file_path, 'r', encoding='utf-8') as f:
        stopwords = [line.strip() for line in f if line.strip()]
    return set(stopwords)

if __name__ == "__main__":
    # 测试用例：加载10万条数据
    data = load_data()
    print(f"成功加载 {len(data)} 条数据")
    data = load_stopwords()
    print(f"成功加载 {len(data)} 条数据")